Model Selection

Cross-Modal Generation

# Cross-Modal Generation

LLaDA-V is a vision-language model based on the diffusion model, outperforming other diffusion multimodal large language models in performance.

Qwen2.5 VL 7B Instruct Q8 0 GGUF

This model is a GGUF-format conversion of Qwen2.5-VL-7B-Instruct, supporting multimodal tasks and applicable to image and text interaction processing.

Text-to-Image English

Llama 3.2 90B Vision Instruct

Llama 3.2-Vision is a multimodal large language model developed by Meta, supporting image and text input with text output, excelling in visual recognition, image reasoning, image captioning, and visual question answering tasks.

Transformers Supports Multiple Languages

AA Chameleon 7b Base

A multimodal model supporting interleaved text-image input/output, based on Chameleon 7B model with enhanced image generation capabilities through the Align-Anything framework

Transformers English

4M is a 'any-to-any' foundational model training framework that achieves multimodal expansion through tokenization and masking techniques

Multimodal Fusion

4M is an 'any-to-any' foundational model training framework extended to multiple modalities through tokenization and masking techniques

Multimodal Fusion

Ldm Text2im Large 256

High-resolution text-to-image generation model based on latent diffusion, achieving efficient image synthesis through latent space manipulation

Image Generation

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase